26. 描述统计总结
概括
变量类型
目前为止我们讲了很多内容!我们首先认识了数据类型
分类
和
数值
。然后我们学习了数值变量分为
连续
和
离散
变量,也学习了分类变量分为
定序
和
定类
。
## 分类变量
在分析分类变量时,我们通常只看一组数据属于一个分类的
类别
。例如,如果我们有两个狗的分类
类别
:
拉布拉多
与
非拉布拉多
。我们可以说 32% 的狗为
拉布拉多
(百分比),也可以说 100 只狗中有 32 只是拉布拉多(计数)。
但是,与描述数值变量相关的四个方面不用于描述分类变量。
数值变量
然后我们学到有四个主要方面用于描述
数值
变量:
-
集中趋势 测量
-
离散程度 测量
-
分布的 形状
-
异常值
集中趋势测量
我们看了
集中趋势
的度量
-
均值
-
中位数
-
众数
离散程度测量
我们还看了
离散程度
的度量
-
极差
-
四分位差
-
标准差
-
方差
形状
我们学习了数据的分布通常为以下三种 形状 :
1. 右偏态
2. 左偏态
3. 对称分布 (通常是正态分布)
根据与数据集的形状,某些集中趋势或离散程度度量可能更适用于概括我们的数据集。
当我们的数据遵循
正态
分布时,我们可以使用
均值
和
标准差
完全理解我们的数据集。
但是,如果我们的数据集是
偏态
分布,
五数概括法
(和关联的集中趋势度量)更适用于概括数据。
## 异常值
我们学习了异常值对于均值度量的影响较大,而对中位数度量的影响较小。我们学习了应该视情况处理异常值。常用技术包括:
1. 至少注意到它们的存在并确定对概括统计的影响。
2. 如果是输入错误 — 删除或改正
3. 理解它们为何存在,以及对我们想要回答的关于数据的问题的影响。
4. 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
5. 报告时要小心。知道如何提出正确的问题。
直方图和箱线图
我们还看了使用直方图和箱线图来可视化数值数据。使用可视化方式比使用概括统计能使我们更容易地识别异常值和数据分布的形状。
## 后续内容
到目前为止,我们只看了 描述统计 ,因为我们在描述收集的数据。在本课的最后部分,我们将来看 描述统计 与 推论统计 的区别。